第40届美国计算机学会信息检索大会(Association for Computing Machinery Special Interest Group on Information Retrieval, ACM SIGIR 2017)于8月7~11日在日本东京召开。作为ACM主办的信息检索领域顶级学术会议,ACM SIGIR 2017共吸引了来自学术界和企业界的900多人参加,是历年来参会人数最多的一次,受到了国内外相关领域学者的极大关注。
今年恰逢ACM SIGIR会议举办40周年,大会特别设立了“经典论文奖”(Test of Time Award),奖励那些在信息检索领域发展早期(1978~2001年之间)发表的、经历了时间考验的优秀论文。与此同时,《SIGIR通讯》出版了一期特刊,邀请一批信息检索领域的资深专家,对每篇获奖的论文进行了简要评述,逐一回顾这些论文的学术贡献。这个环节也成为本次会议的一大亮点。
时任华为公司诺亚方舟实验室主任的李航博士担任了本次大会的程序委员会主席,这是SIGIR历史上首次由中国内地学者担任程序委员会主席。
主题报告
本次大会邀请ACM会士、英国剑桥大学格顿学院院士、ACM SIGIR Salton奖得主史蒂芬·罗伯森(Stephen E. Robertson)和ACM会士、雅虎研究院副总裁耶艾尔·玛瑞克(Yoelle Maarek)作主题报告。
罗伯森提出的BM25排序函数一直是搜索结果排序研究领域的一大基准。在主题报告中,他带我们回顾了信息检索的发展历史,并分享了自己对这段历史的理解。他强调,互联网出现之前的信息检索的概念和方法推动了网络搜索引擎的发展和成功。他认为,网络搜索引擎的成就之一就是将大规模倒排索引的基本技术与自然语言查询和搜索结果排序结合起来,而网页爬取技术和锚文本抽取是搜索引擎得以发展的重要原因。当然,从基础的信息检索技术到商业搜索引擎的转变并不是简单明了的,因而,我们需要了解这个领域的历史,汲取经验,懂得借鉴,才能推动其不断向前发展。今天,高质量的无线连接和搜索引擎已经成为一种廉价的资源,我们难以想象在互联网出现之前信息检索是如何发展的。在报告中,他还提到了一些逸闻轶事,可以帮助我们避免重复过去的一些错误。罗伯森的报告对于尚未经历太多挫折的年轻学者们来说意义非凡。
玛瑞克报告的主题是个性化的邮件搜索。我们每个人的电子邮箱中都存储着大量的重要信息,如何从众多的信息中检索到我们需要的信息成为首要问题。玛瑞克认为,网络搜索和邮件搜索不同。网络搜索的用户只需要找到相关的文档就可满足其需求;而对于邮件搜索,用户的目的非常明确,他可能不记得邮件的具体细节,但是他要寻找的很可能是之前阅读过的一封特定的邮件。另一方面,邮件搜索中的收件箱是用户的私人空间,用户会有一种所有权意识,这种意识恰恰阻碍了智能搜索在邮件搜索中的应用。因为用户相信自己能够找到他们需要的邮件,就像在房间里找一件东西一样。尽管现实并非如此,但是大多数邮件服务商仍然是按照时间顺序而不是相关性来排列邮件。玛瑞克还介绍了这一领域当前的一些研究进展。例如,现在的一些邮件服务在返回结果时会考虑时间和相关性的综合因素,以及移动端用户界面的发展。玛瑞克还讨论了邮件搜索未来的发展方向,为个性化的邮件数据发展特定的搜索机制仍然需要学者们的共同努力。
最佳论文
本届会议的最佳论文是来自微软的“BitFunnel: Revisiting Signatures for Search”。这篇论文描述了云计算领域的算法创新和改变,这些创新和改变促使作者重新思考并最终实现了曾经被认为无用的技术。自20世纪 90 年代中期以来,人们普遍认为签名文件在用于文本索引时比不上倒排文件。但必应(Bing)搜索引擎开发和部署了一个基于位片签名的索引—— BitFunnel ,它降低了操作成本,代替了原有的基于倒排索引的产品系统。BitFunnel 算法直接解决了位片块签名中的四个根本局限。同时,作者在集群上的算法映射避免了产生与签名相关的其他成本。相比于经典的位片签名,BitFunnel效率提升显著。
本届会议的最佳学生论文奖由清华大学计算机系张帆的论文“Evaluating Web Search with a Bejeweled Player Model”获得。评价指标设计一直是信息检索技术研究中的核心问题之一,估计用户的期望收益与期望付出是搜索用户行为模型的关键组成部分。受模型框架限制,当前几乎所有信息检索评价指标均无法做到同时将用户的期望收益和付出纳入会话终止条件的估计。针对这一问题,该论文受电子游戏“Bejeweled(宝石迷阵)”机制启发,设计了一个新型用户交互模型框架,将期望收益与付出因素重新建模,并把现有的绝大多数评价指标纳入该框架的范畴。在真实用户行为数据上的实验表明,相比现有指标,该框架能够更好地预测用户的满意程度。
伦敦大学学院(University College London, UCL)教授汪军的论文“IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models”和电子科技大学副教授沈复民的论文“Classification by Retrieval: Binarizing Data and Classifiers”均获得了本次会议的最佳论文奖提名。前者在评审阶段获得了满分,受到了各位评审委员的一致认可。
经典论文奖
本次会议的一大亮点是设立了特别的“经典论文奖”环节。经典论文奖主要表彰那些对信息检索研究产生深远影响的ACM SIGIR会议论文,通常是奖励在颁奖年之前10~12年发表的论文。今年的经典论文奖授予由杰米·蒂凡(Jaime Teevan)、苏珊·杜马斯(Susan T. Dumais)和埃里克·霍尔维茨(Eric Horvitz)三人在2005年发表的论文“Personalizing Search via Automated Aanalysis of Interests and Activities”。
由于奖项是近几年设立的,早期SIGIR会议的很多论文并没有被纳入评奖序列。为了更好地遴选那些在1978~2001年之间发表的杰出论文,本次大会特别成立了由基思·赖斯贝亨(Keith van Rijsbergen)教授(ACM会士、英国皇家工程院院士、ACM SIGIR Salton奖得主)领导的评选委员会。评选委员会首先基于引用数等标准建立一个候选论文集合,同时向所有委员征求论文提名,对候选论文集合进行补充。在20世纪80年代比较活跃的一批资深的信息检索学者还成立了特别委员会,审核1978~1989年之间发表的优秀论文。最终,候选论文集合中的每一篇论文都交由一个三位委员组成的小组来进行评分,得分最高的30篇论文获得了经典论文奖。为了纪念这些获奖论文,大会还邀请了一批信息检索领域的资深学者对每一篇论文进行简评,概括论文的主要贡献及其对当前研究的价值。
这些经典论文的写作风格简洁而朴实,又有高度的创新性、严谨性和开放性。读者可以通过阅读这些论文回顾信息检索学科的发展历程,并从中受益。所有信息检索领域的同仁们应当思考,如何让这些工作中蕴含的宝贵财富在我们当前的研究中发挥历久弥珍的价值。
未来展望
随着人工智能的飞速发展,深度学习在计算机视觉和自然语言理解等众多领域取得了巨大成功,在信息检索领域也受到越来越多的关注。在去年的ACM SIGIR会议上,自然语言理解领域的顶级科学家克里斯托弗·曼宁(Christopher Manning)受邀发表的主旨演讲,预计深度学习将统治SIGIR。在今年的SIGIR会议中,确实出现了众多相关的研究论文。然而,在人工智能浪潮中,我们也需要冷静下来,仔细思考信息检索领域未来的发展方向。罗伯森院士的主题报告或许能够给我们一些启发,我们需要回顾信息检索的发展历史,理解其中最为核心的概念与方法,只有将其与现今领先的技术与思想相结合,才能创造出具有历史意义与价值的工作,引领信息检索领域的发展,就像那些经典论文一样。
ACM SIGIR 2018 将在美国安娜堡举办,笔者刘奕群将担任大会的程序委员会主席。随着信息检索在中国的发展,中国学者逐渐在该领域扮演越来越重要的角色,我们也期待未来中国学者能够取得更加卓越的成就! ■
所有评论仅代表网友意见